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变 点 分 析 法 (change point analysis, CPA) 近 些 年 才 引 入 心理 与 教育 测量 学 ， 相 较 于 传统 方法 , CPA 不 仅 


可 以 侦查 异常 作答 被 试 , 还 能 自动 精确 地 定位 变 点 位 置 ， 高 效 清洗 作答 数据 。 其 原理 在 于 : 判断 作答 序列 中 是 
否 存 在 可 将 该 序列 划分 为 具有 不 同 统计 学 属性 两 部 分 的 点 ( 即 变 点 )， 并 且 需 使 用 被 试 拟 合 统计 量 (person-fit 


statistic, PFS) 来 量化 两 个 子 序列 之 间 的 差异 。 未 来 可 将 单 变 点 分 析 拓 展 至 多 变 点 ， 结 合 反应 时 等 信息 ， 


构建 非 


参数 化 指标 以 及 将 现 有 指标 拓展 至 多 级 计 分 或 多 维 测验 ， 以 提高 CPA 的 适用 广度 及 效力 。 
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1 引言 


在 心理 测验 中 我 们 常常 可 以 看 到 这 样 的 现 
象 : 某 被 试 在 测验 初期 认真 作答 ,但 到 后 期 失去 
了 答题 的 兴致 ， 于 是 便 随 意 作 答 、 乱 选 一 通 。 也 
会 在 教育 测验 中 注意 到 这 样 的 情况 : 某 考 生 在 作 
答 过 程 中 发 觉 剩余 考试 时 间 不 足 ， 而 后 急匆匆 地 
答题 ， 顾 不 上 仔细 审题 ， 导 致 许多 本 来 能 答对 的 
题目 却 都 答 错 了 。 人 研究 者 将 此 类 现象 统称 为 异常 
反应 (aberrant response)。 心 理 与 教育 测验 中 经 常 
会 出 现 各 式 各 样 的 异常 反应 ， 主 要 包括 : 热身 效 
应 (warm-up effect)、 加 速 作答 (speededness)、 疲 劳 
(tiredness)、 注 意 力 不 集 中 (loss of concentration) 和 
对 题目 的 预 了 解 (item preknowledge) 等 (Sinharay, 
2017b)。 以 “对 题目 的 预 了 解 ”的 现象 为 例 ,如果 被 
试 在 考试 前 已 经 获取 了 题目 的 信息 ,那么 作答 会 
更 加 得 心 应 手 (Zhang, 2014)。 因此 ,异常 反应 的 存 
在 会 “污染 ”作答 数据 ， 如 果 数 据 “ 受 污染 ”程度 严 
重 , 会 使 参数 估计 精度 大 受 影响 并 降低 测验 效 度 
(Shao, 2016)。 以 往 调 查 表明 ,在 心理 与 教育 测验 
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中 存在 异常 反应 的 被 试 占 据 了 相当 一 部 分 比例 。 
例如 ，Meade (2016) 发 现 测验 当中 存在 粗心 作答 
(careless response) 行 为 的 被 试 一 般 约 占 总 人 数 的 
10%。 如 果 在 研究 中 直接 使 用 存在 异常 反应 的 数 
据 进行 分 析 ， 势 必 会 影响 研究 结论 的 可 靠 性 和 可 
推广 度 。 当 前 对 于 异常 反应 的 侦查 方法 主要 有 两 
种 : 第 一 种 是 人 工 逐 一 检查 数据 , 但 是 这 种 方法 
需要 测验 管理 者 亲 力 亲 为 对 数据 逐个 审查 ,较为 
费时 费力 ,而且 由 于 这 种 方法 具有 很 大 的 主观 性 ， 
所 以 侦查 的 准确 性 也 存疑 ; 第 二 种 方法 是 利用 统 
计 学 手段 对 数据 进行 快速 侦 测 ， 这 种 方法 效率 很 
高 ， 可 由 计算 机 程序 独立 执行 , 更 具 客 观 性 , 但 
是 侦 测 的 准确 度 依赖 于 统计 学 手段 的 合理 性 。 因 
此 ,开发 并 完善 有 效 的 异常 反应 侦 测 统计 学 方法 
便 具有 重要 的 理论 与 实际 意义 。 

异常 反应 数据 的 侦查 是 统计 过 程控 制 (statistical 
process control, SPC) 中 的 一 种 ,传统 上 SPC 采用 
的 是 累积 和 法 (cumulative summation, CUSUM)。 
CUSUM 通过 构造 被 试 拟 合 统 计量 (person-fit 
statistic, PFS) 实 现 对 异常 反应 的 侦 测 。 基 于 CUSUM 
的 PFS 通过 依 题 目 顺序 将 各 题 上 观察 与 期 望 得 分 
间 的 残 差 累积 求 和 得 到 ， 当 其 超出 一 定 临 界 值 ， 
则 意味 着 失 拟 (Sinharay，2016)， 即 认为 存在 异常 
反应 。 这 种 方法 最 大 的 优点 在 于 可 以 输出 图 像 ， 
具有 可 视 化 的 特性 ， 对 整个 作答 序列 能 有 清晰 、 
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直观 和 全 面 的 把 握 。 但 是 当 侦 测 任务 需要 确定 变 
点 (change point) 位 置 时 , 测验 人 员 必 须 亲 自 检 查 
根据 被 试 的 作答 序列 生成 的 图 像 以 定位 变 点 。 然 
而 ,心理 与 教育 测验 的 数据 动 辑 由 成 百 上 千 名 被 
试 的 作答 构成 ,传统 的 CUSUM 方法 因此 显得 捉 
襟 见 肘 了 。 新 一 代 的 异常 反应 侦查 方法 一 一 变 点 
分 析 法 (change point analysis, CPA; Page, 1954) 应 
运 而 生 ， 它 可 以 克服 传统 方法 的 弱势 ,更 适应 于 
心理 与 教育 测验 的 环境 。 

CPA 是 目前 SPC 中 较为 流行 的 方法 ， 它 可 以 
检测 由 一 系列 随机 变量 构成 的 序列 中 是 否 存在 一 


需要 通过 构造 PFS 的 方式 来 实现 侦查 。 在 心理 与 
教育 测量 领域 , CPA 构造 PFS 主要 依托 项 目 反 应 
理论 (item response theory, IRT)。 根 据 美 国 《教育 
和 心理 测验 标准 》(Standards for Educational and 


Psychological Testing; American Educational Research 


= 


Association, American Psychological Association, 
& National Council for Measurement in Education, 
2014)AY 4.10 条 规定 : 当 IRT 模 型 用 于 测验 开发 时 ， 
应 当 提 供 关 于 模型 是 否 拟 合 的 证 据 。 而 PFS 可 以 
量化 被 试 的 得 分 模式 与 IRT 模型 的 拟 合 程度 
(Bradlow & Weiss, 2001)， 因 此 可 作为 《标准 》 所 


个 或 多 个 变 点 ， 并 确定 变 点 的 位 置 。 变 点 在 通俗 
意义 上 是 指 “ 模 型 中 的 某 个 或 某 些 量 起 突然 变化 
ZA” (KA fii, 1991)。 在 变 点 前 后 ， 随 机 变量 赖 以 
生成 的 模型 本 身 或 模型 参数 会 发 生 改变 (Sinharay, 
2017b), 或 者 说 发 生 了 结构 性 的 变化 (structural 
change). CPA 最 早 用 于 生物 学 领域 ， 其 研究 肇始 
于 Page (1954) 在 Biometrika 上 发 表 的 一 篇 关于 连 
续 抽 样 检 验 的 文章 ， 后 来 被 广泛 应 用 于 医学 
(Aminikhanghahi & Cook, 2017; Kass-Hout et al., 
2012; Nam, Aston, & Johansen, 2012), MEEK 
(Abahous, Ronchail, Sifeddine, Kenny, & Bouchaou, 
2018; Suhaila & Yusop, 2018; Yu & Ruggieri, 
2019). 4 fi(Allen, McAleer, Powell, & Singh, 2018; 
Thies & Molnar, 2018; Ye, Liu, & Miao, 2012), T. 
业 (Maleki, Bingham, & Zhang, 2016; Mortaji, 
Noorossana, & Bagherpour, 2015; Nigro, Pakzad, & 
Dorvash, 2014) 等 各 个 领域 。 而 在 近 些 年 才 引 入 心 
理 与 教育 测量 。 

CPA 可 以 用 于 侦查 心理 与 教育 测验 中 的 异常 
反应 现象 ,异常 反应 的 被 试 在 作答 过 程 中 , 会 出 
现 作答 表现 在 某 道 题 后 发 生 转 变 的 现象 ， 这 就 是 
测量 学 意义 上 的 变 点 。CPA 的 优势 在 于 ， 它 不 仅 


需 证 据 的 一 部 分 。 现 有 PFS 指标 可 以 分 为 两 类 : 参 
数 化 的 (parametric) 和 非 参 数 化 的 (non-parametric)。 
本 文 将 要 讨论 的 CUSUM 和 CPA 两 种 方法 的 PFS 
都 是 参数 化 的 指标 ， 即 基于 IRT 进行 构造 。 具 体 
使 用 方法 是 : 通过 将 PFS 与 其 在 某 一 显著 性 水 平 
下 的 临界 值 进 行 比 较 ， 以 鉴别 被 试 是 否 存在 异常 
反应 。 

当前 ，CPA 的 研究 在 心理 与 教育 测量 领域 已 
经 取得 了 一 些 进展 。 研 究 表明 : CPA 既 可 用 于 非 
自 适应 测验 (传统 纸 笔 测验 )， 也 可 以 用 于 自 适 应 
测验 (如 计算 机 自 适 应 测验 ) (Sinharay, 2016). 
Zhang (2014) 首 次 将 CPA 引入 教育 测验 , 在 计算 
机 化 自 适 应 测验 (computerized adaptive testing， 
CAT) 的 环境 下 中 侦 测 是 否 存在 已 遭 泄 露 的 题目 。 
Shao 等 人 (2016) 成 功 将 基于 似 然 比 检验 的 CPA 运 
用 于 检测 被 试 加 速 作答 行为 ， 以 识别 被 试 的 能 力 
值 是 否 存 在 个 体内 (intraindividual) 变 化 ， 并 找到 
变化 的 发 生 位 置 。Shao (2016) 进 一 步 将 CPA 拓展 
至 热身 效应 (warm-up effect) 的 侦查 。Sinharay 
(2016) 归 纳 了 CPA 的 三 种 PFS 指标 , 我 们 将 在 后 
文 对 这 三 种 PFS PET HAIR. IFA, 他 还 将 CPA 用 
于 探测 被 试 对 题目 的 预 了 解 现象 ， 并 讨论 了 CPA 


可 以 鉴别 菜 被 试 是 否 存 在 异常 反应 ,还 能 检测 变 
点 的 具体 位 置 (Yu & Cheng, 2019)。 因 此 ,在 数据 
分 析 中 ， 此 方法 能 使 测验 人 员 对 被 试 的 异常 部 分 
数据 单独 进行 清理 (Embretson & Reise, 2000; 
Shao, Li, & Cheng, 2016)， 而 无 需 将 该 被 试 的 所 有 
数据 删除 ， 以 降低 异常 反应 的 影响 ,最 大 程度 保 
留 有 效 数 据 并 提升 参数 估计 精度 (Hong & Cheng, 
2018; Patton, Cheng, Hong, & Diao, 2019; Yu & 
Cheng, 2019), 

无 论 是 传统 的 CUSUM 还 是 新 兴 的 CPA, 都 


在 具体 应 用 中 的 各 项 细节 问题 (Sinharay，2017a， 
2017b, 2017c)。Lee 和 von Davier (2013) 使 用 CPA 
技术 在 一 项 国际 语言 评估 测试 的 历年 平均 分 上 检 
测 出 了 异常 的 变动 ， 这 可 以 为 测验 管理 者 提供 测 
试 改 革 的 依据 。 

本 文 将 首先 介绍 心理 与 教育 测量 中 常见 的 异 
常 反 应 及 其 管理 模型 ,然后 详细 综述 以 往 研究 者 
构造 的 基于 CPA 和 CUSUM 两 种 方法 的 PFS 及 其 
临界 值 的 确定 方法 ， 并 阐述 CPA 和 CUSUM 的 操 
作 流 程 ,之 后 综合 比较 两 种 方法 在 异常 反应 侦查 
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中 的 特点 、 优 劣 及 使 用 时 的 注意 事项 ， 最 后 对 于 
该 研究 领域 当前 存在 的 问题 进行 分 析 并 指明 未 来 
的 研究 方向 。 通 过 合理 运用 CPA, 心理 与 教育 测 
量 学 工作 者 可 以 更 严谨 高 效 地 处 理 作答 数据 ， 提 
高 研究 的 质量 ， 本 文 还 在 前 人 的 研究 基础 之 上 提 
出 一 些 创 新 的 观点 ,帮助 启发 后 续 研 究 者 的 思路 
推动 CPA 的 研究 进程 。 


2 异常 反应 模型 


常见 的 异常 反应 类 型 主要 包括 热身 效应 、 加 
速 作答 、 疲 劳 、 注 意 力 不 集 中 和 对 题目 的 预 了 解 
等 。 这 些 异常 反应 的 出 现 会 降低 测验 效 度 并 随 之 
影响 研究 结论 的 可 靠 性 ， 应 当 通 过 一 定 的 技术 手 
段 准确 高 效 地 识别 它们 ， 以 尽 可 能 减 小 异常 反应 
对 于 测验 的 影响 。 本 节 主 要 以 测验 中 最 为 常见 的 
异常 反应 之 一 一 一 加 速 作答 (speededness) 为 例 进 
行 论述 ， 着 重 介 绍 加 速 作答 的 管理 模型 。 加 速 作 
答 模 型 可 方便 地 拓展 到 其 它 异常 反应 的 建 模 中 ， 
如 热身 效应 (Shao，2016) 和 后 期 随机 作答 (Yu & 
Cheng, 2019) 等 。 建 模 研 究 能 使 人 们 深入 理解 异常 
反应 的 内 在 机 制 (Shao et al., 2016), 这 对 侦 测 领 
域 的 意义 在 于 : 通过 加 深 对 异常 反应 机 制 的 理解 ， 
有 助 于 开发 和 完善 异常 反应 侦查 的 新 方法 和 新 指 
标 。 
2.1 传统 IRT 模型 

在 介绍 异常 反应 模型 前 ， 需 要 先 了 解 传统 的 
IRT 模型 。 传 统 项 目 反应 理论 模型 包括 正 态 肩 形 
模型 (the normal ogive model), Rasch 模型 和 
logistic 模型 。 目 前 学 界 使 用 得 比较 多 的 是 后 两 种 
模型 ， 为 方便 讲解 ,在 此 以 两 参数 的 logistic 模型 
(2PL logistic model) 为 例 进 行 介绍 ， 模 型 可 以 表 
达 为 : 


exp[aj(2 —5,)] 
1+exp[a,(6,—b,)] 
Hp, Xy 是 被 试 i 在 i 上 的 作答 ，6 为 被 试 i 的 能 
JIŽ, a, 和 4b 分 别 是 题目 的 区 分 度 和 难度 参 
数 ，P,(9) 为 被 试 i 在 题目 jy 上 答对 的 概率 。 

2.2 ”加 速 作答 及 其 模型 

加 速 作答 (speededness; Evans & Reilly, 1972) 
是 指 发 生 在 速度 非 待 测量 构 念 的 限时 测验 的 一 种 
效应 。 被 试 在 测验 后 期 的 某 道 题 处 发 觉 作 答 时 间 
不 够 , 迫 于 时 间 压 力 加 快 作答 速度 ， 导 致 其 作答 


P,(0) = P(X; =1|G,4;,5;) = (1) 


表现 持续 下 降 到 测验 结束 。 基 于 不 同 基 本 假设 ， 
可 将 现 有 加 速 作答 模型 分 为 三 类 : 混合 模型 (mixture 
model)、 组 合 模 型 (hybrid model) 和 渐变 模型 (gradual 
change model)。 
2.2.1 混合 模型 

为 减轻 测验 中 加 速 作答 效应 对 参数 估计 造成 
的 影响 , Bolt Cohen 和 Wollack (2002) 在 混合 Rasch 
模型 (mixture Rasch model; Rost, 1990) 的 基础 之 上 
对 加 速 作 答 实 施 建 模 ， 该 模型 将 所 有 被 试 分 成 两 
个 类 别 : 加 速 和 非 加 速 ， 且 每 名 被 试 只 归属 于 其 
中 一 类 。 在 每 个 类 里 ,被 试 在 各 题 上 的 答对 概率 
都 可 写作 Rasch 模型 ( 即 式 (1) 中 a, =1) 的 形式 , 而 
每 道 题 在 两 个 类 别 上 分 别 具 有 不 同 难度 参数 。 通 
过 对 题目 的 难度 参数 施加 一 系列 约束 ， 以 实现 对 
加 速 作答 的 管理 。 例 如 ,测验 初期 题目 (未 受 加 速 
作答 影响 ) 在 加 速 和 非 加 速 类 上 的 难度 设置 为 相 
等 ， 而 对 于 后 期 题目 (受到 加 速 作答 影响 )， 加 速 
类 上 的 难度 参数 比 非 加 速 类 的 大 ,作为 对 加 速 作 
答 的 惩罚 。 该 模型 为 : 

*。 ”exp(Oe -Dis) 
Ne 1+exp(g。 一 Oo 

其 中 , g 表示 类 别 , 可 取 1 或 2 (代表 加 速 或 非 加 速 
类 ), 8, 为 在 类 别 g 中 的 被 试 ;的 能 力 参数 ，b 是 
题目 7 在 类 别 g ERESI Pie HBOR i 在 是 
Aj 上 的 答对 概率 。 该 模型 假定 加 速 类 下 所 有 被 
试 的 变 点 位 置 一 致 。 

由 于 被 试 在 测验 后 期 的 作答 易 受 加 速 作 答 影 
响 (Oshima, 1994)， 并 导致 数据 受 污 染 。 因 此 , Bolt 
等 (2002) 采 用 混合 Rasch 模型 来 修正 测验 后 期 题 
目的 参数 估计 。 结 果 表 明 : 该 模型 不 仅 可 改善 参 
数 估 计 的 精度 ， 还 能 有 效 对 被 试 实施 分 类 。 此 后 ， 
学 者 们 深入 研究 并 陆续 将 该 模型 拓展 为 其 它 形式 ， 
如 混合 两 参数 logistic 模型 (mixture 2PL logistic 
model; Bolt, Mroch, & Kim, 2003)、 两 维 混合 两 参 
数 logistic 模型 (two-dimensional mixture 2PL logistic 
model; de Boeck, Cho, & Wilson, 2011) 和 混合 层级 
模型 (mixture hierarchical model; Wang & Xu, 2015) 
等 。 
2.2.2 ”组 合 模型 

Yamamoto 和 Everson (1997) 构 建 了 两 参数 组 
合 模型 (2PL hybrid modeD， 用 于 数据 拟 合并 提高 
加 速 作 答 影响 下 的 参数 估计 精度 。 模 型 假设 加 速 
作答 被 试 经 过 变 点 后 ,作答 策 略 将 会 从 深思 熟 虑 


(2) 


| 
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转变 为 随机 猜测 。 模 型 如 下 所 示 : 
* -| exp[a,(6, -b,)] 
Ws |14 exp[a (6-b) 
, Pla; (8-b) , G 
其 中 ，T Gay Te 2PL 模型 。g 到 
示 类 别 , 但 与 混合 模型 中 只 有 两 个 类 别 不 同 ， 此 
模型 根据 变 点 位 置 分 类 : 同一 变 点 位 置 的 被 试 归 
为 一 类 。 Tig 是 指示 函数 (indicator function): 当 
Ts =0， 表示 类 别 g 的 被 试 在 第 j 题 上 正常 作答 ， 
ae exp[a (6, —5,)] ey = 

答对 概率 为 Trepleie * Ij =l, KIR 
类 别 g 的 被 试 在 第 7 题 上 存在 加 速 作 答 ， 猜 对 概率 
为 mg ， 数 值 等 于 第 7 题 选项 数目 的 倒数 。 因 此 被 
试 在 变 点 之 前 的 题目 上 正常 作答 ,而 在 变 点 后 所 
有 题 上 转变 为 随机 作答 ,各 题 的 答对 概率 是 固定 
数值 ， 这 是 一 项 严格 的 假设 。 

Yamamoto 和 Everson (1997) 的 研究 表明 : 相 
较 于 传统 的 IRT 模型, 2PL 组合 模型 能 有 效 地 提升 
被 试 和 题目 的 参数 估计 精度 。 并 且 ， 基 于 该 模型 
特性 ，Yu 和 Cheng (2019) 在 模拟 研究 中 将 其 改 为 
多 级 计 分 的 形式 ， 以 生成 由 于 不 专心 所 致 的 后 期 
随机 作答 的 数据 。 
2.2.3 ”渐变 模型 

组 合 模 型 认为 被 试 经 过 变 点 之 后 ,各 题 的 答 
对 概率 会 变 成 固定 数值 。 然 而 ， 此 处 介绍 的 渐变 
模型 对 变 点 后 答对 概率 的 改变 持 有 更 加 灵活 的 认 
识 该 模型 假设 被 试 在 变 点 后 各 题 上 的 答对 概 
率 将 会 逐渐 下 降 。Wollack 和 Cohen (2004) 在 研究 
中 首次 建立 了 渐变 模型 ， 目 的 是 生成 加 速 作答 数 
据 。 此 后 , Goegebeur, de Boeck, Wollack 和 Cohen 
(2008) 成 功 实现 了 模型 的 数据 拟 合 和 参数 估计 。 两 
参数 渐变 模型 (2PL gradual change model; Suh, 
Cho, & Wollack, 2012) 为 : 


4, 
Pe expla ;(6, —b,)] (人 , (4) 
1+ exp[a (6, —5;)] J 
日 exp[aj( -六 )] n 和 H E Hyi 
其 中 ， Peele Cop 是 传统 2PL 模型 。 J 是 题 
ARR. 1 (0 三 三 1 ) 描 述 被 试 i 在 测验 中 开始 
加 速 作答 的 位 置 , 数值 上 等 于 被 试 在 加 速 前 完成 
的 题目 数量 占 总 题 数 的 比例 。 例 如 ;w=0.8 表示 该 
被 试 从 测验 的 80% 位 置 之 后 开始 加 速 作答 。1 是 
加 速率 (speededness rate) 参 数 ， 用 于 控制 答对 概 


1- jg 
| GB) 


N 
7 


a 


率 TERE. ARK, AIR WE 
快 。 假 设 某 测 验 共 100 题 ， 两 名 被 试 能 力 9 相等 ， 
7 值 都 为 0.8， 即 两 人 都 在 测验 后 20 题 上 存在 加 
速 作答 , 而 和 =1 用 =3。 当 两 人 在 第 90 题 上 作 
答 时 ， 对 于 被 试 1， 答 对 概率 

Poe exp[aoo(O —bo)] x 

1,90 

1+ exp[ay (0, —boo)] 


0.9% exp[aoo(O — boo)] , 
1+exp[aoo(O — boo)] 
而 对 于 被 试 2， 答 对 概率 
Pio _ EXP[Ao9 (A — oq )] * 
, 1+ exp[ao (0, 一 poo)] 


exp[aoo(2 一 2oo)] 
1+explaoo(2 一 poo)] 
即 对 于 两 名 能 力 相等 且 变 点 位 置 一 致 的 被 试 而 言 ， 
由 于 4 取 值 差异 导致 两 人 在 同一 题 上 的 答对 概率 
相去 其 远 : 被 试 1 在 第 90 题 上 的 答对 概率 是 正常 
答对 概率 的 0.9， 而 被 试 2 的 答对 概率 是 正常 答对 
概率 的 0.73。 可 见 ，4 取 值 对 于 被 试 在 加 速 作答 
部 分 的 答对 概率 影响 很 大 。 在 (4) 式 中 , 4 w=1 或 
4 =0， 意 味 着 被 试 1 在 测验 中 不 存在 加 速 作 答 ， 
此 时 式 子 变 成 传统 2PL 模型 。 

Shao 等 人 (2016) 在 研究 中 使 用 2PL 渐变 模型 
来 生成 加 速 作 答 数 据 ， 随 后 ，Shao (2016) 在 该 模 
型 的 基础 上 略 作 改 动 , 构建 了 热身 效应 (warm-up 
effect) 的 管理 模型 ， 公式 为 : 


A 

= exp[ aj(9 -5b,)] “mn 让 5 
1+exp| a,(@ -5,)| J 

热身 效应 是 指 发 生 在 测验 初期 的 一 种 效应 ， 
被 试 由 于 不 熟悉 测验 内 容 或 者 紧张 等 原因 导致 测 
验 初期 的 作答 表现 会 低 于 他 的 实际 水 平 。 当 被 试 
熟悉 测验 后 ， 其 作答 水 平 将 会 恢复 正常 并 在 此 后 
PEN RFE. SOP, 60 <6 <1) 描述 被 试 i 
在 测验 何 处 摆脱 热身 效应 的 影响 ,数值 上 等 于 测 
验 初 期 存在 热身 效应 的 题目 数量 占 总 题 数 的 比 
例 。 例 如 ，5,=0.2 表 示 被 试 i 在 测验 的 20% 位 置 
之 后 摆脱 热身 效应 ， 开始 正 常 作 答 。 其 余 符 号 意 
义 与 (4) 式 基本 一 致 , 不 再 著述 。 
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2.3 ”异常 反应 模型 简 评 

本 节 以 心理 与 教育 测验 中 最 为 常见 异常 反应 
之 一 一 一 加 速 作 答 为 代表 ,详细 综 述 了 异常 反应 
的 管理 模型 。 加 速 作 答 各 模型 可 以 很 方便 地 拓展 
到 其 它 异 常 反 应 的 建 模 中 ， 如 后 期 随机 作答 和 热 
身 效应 等 。 通 过 对 模型 的 剖析 和 认识 ， 有 助 于 加 
深 对 异常 反应 内 部 机 制 的 理解 ， 从 而 为 异常 反应 
侦 测 新 方法 开发 夯实 理论 基础 。 就 加 速 作答 而 言 ， 
研究 者 们 基于 三 类 假设 ， 从 不 同 角 度 建 立 了 三 种 
模型 。 

混合 模型 把 所 有 被 试 划分 成 加 速 和 非 加 速 两 
个 类 别 , 通过 对 两 类 上 的 题目 参数 设置 约束 来 实 
现 对 加 速 作答 的 建 模 : 在 变 点 之 前 ,两 类 的 参数 
一 致 ， 而 在 变 点 后 ， 两 类 的 参数 相 异 。 对 于 该 模型 
而 言 ， 所 有 加 速 作答 被 试 的 变 点 位 置 都 是 一 样 
的 。 组 合 模型 假设 加 速 作答 被 试 在 经 过 变 点 之 后 ， 
其 作答 策略 将 从 深思 熟 虑 转变 为 随机 猜测 ， 这 项 
假设 十 分 严格 。 并 且 ， 该 模型 允许 被 试 有 不 同 的 
变 点 位 置 。 而 最 后 介绍 的 渐变 模型 则 具有 更 加 灵 
活 的 视角 : 它 假设 经 过 变 点 之 后 , 被 试 的 答对 概 
率 会 逐渐 地 降低 。 从 这 一 点 上 , 渐变 模型 相 较 于 
其 它 两 个 模型 而 言 会 更 加 符合 实际 情形 (Goegebeur 
et al., 2008; Suh et al., 2012): 如 果 被 试 在 测验 后 
期 某 题 处 发 觉 剩 余 时 间 不 足 ， 便 会 加 快 做 题 速度 ， 
随 着 剩余 时 间 越 来 越 短 , 会 越 做 越 快 ， 导致 他 
在 每 道 题 上 的 认 知 加 工 耗 时 越 来 越 少 , 答对 概率 
也 越 来 越 低 。 在 渐变 模型 中 ， 有 一 个 关键 的 被 试 
参数 4， 它 表示 受 效应 影响 答对 概率 的 下 降 速 度 ， 
在 模型 中 作为 指数 而 存在 。 它 的 取 值 对 于 答对 率 
影响 很 大 ，4 值 越 大 ,答对 率 下 降 得 越 快 。 各 被 试 
的 4 取 值 不 一 ,表明 有 些 被 试 受 效应 影响 程度 大 
些 ， 有 些 受 影响 程度 小 些 ， 这 也 符合 实际 情形 。 我 
们 不 禁 可 以 想到 被 试 的 能 力 应 该 会 与 4 取 值 存 在 
相关 ， 因 为 按照 一 般 逻 辑 ， 能力 强 的 被 试 相 比 于 
能 力 弱 的 在 面 对 时 间 压 力 时 应 更 为 从 容 镇 定 ， 即 使 
在 测验 剩余 时 长 不 多 的 情况 下 ,也 更 能 抵抗 这 种 
负面 干扰 , 充分 调动 认 知 资源 解决 问题 。 然 而 ,究竟 
实际 情况 是 否 与 猜测 一 致 ， 还 需 未 来 研究 去 验证 。 


3 ”基于 累积 和 法 的 异常 反应 侦查 


在 心理 与 教育 测量 领域 , CUSUM 相对 CPA 
出 现 得 更 早 ， 以 往 研究 者 提出 了 多 种 基于 CUSUM 
的 PFS (Bradlow & Weiss, 2001; Bradlow, Weiss, & 


Cho, 1998; van Krimpen-Stoop & Meijer, 2000, 2001, 
2002)， 由 于 本 节 旨 在 阐述 此 方法 的 思路 ， 因 此 在 
这 里 仅 介绍 最 基本 的 CUSUM 的 PFS 指标 一 一 基 
于 题目 平均 加 权 残 差 (averaged weighted residual) 
的 PFS。 IRIRE”, 是 指 被 试 在 某 题 目 上 观察 与 
期 望 得 分 (由 IRT 模型 预测 ) 之 间 的 偏离 程度 (Yu & 
Cheng, 2019)。 因 此 ，CUSUM 的 基本 思想 在 于 : 
按照 题目 顺序 依次 将 被 试 的 观察 与 期 望 得 分 的 残 
差 累 加 来 构造 PFS， 以 检测 被 试 是 否 存 在 异常 反 
应 。 传 统 的 PFS 指标 由 被 试 整个 作答 序列 通过 
次 计算 得 到 ， 并 未 将 题目 呈现 的 顺序 纳 人 考虑， 
这 会 导致 序列 某 处 的 正 ( 负 ) 残 差 被 另 一 处 的 负 ( 正 ) 
残 差 弥补 ， 从 而 降低 了 传统 指标 的 检测 效果 。 而 
CUSUM 在 PFS 构建 上 结合 了 题目 顺序 的 信息 。 
当 它 的 指标 超过 特定 临界 值 时 ， 即 判断 为 异常 反 
应 。 假 设 现 有 某 次 测验 的 作答 数据 ， 该 测验 为 0-1 
计 分 ， 共 包括 .7 题 ， 为 便于 前 述 ， 此 后 的 讨论 中 将 
略 去 被 试 的 下 标 i。 
3.1 ”基于 单 侧 统计 量 的 题目 平均 加 权 残 差 的 PFS 
van Krimpen-Stoop 和 Meijer (2000) 以 及 
Meijer (2002) 定 义 了 基于 单 侧 (one-sided) 统 计量 
的 题目 平均 加 权 残 差 的 两 种 PFS 指标 , 这 里 的 “ 单 
侧 ? 是 指 此 类 统计 量 考虑 了 被 试 的 作答 表现 的 变 
化 方向 : 向 上 的 变化 意味 着 被 试 的 作答 水 平 变 高 ; 
向 下 的 变化 意味 着 被 试 的 作答 水 平 变 低 。 基 于 题 
目 平 均 加 权 残 差 的 两 种 单 侧 统计 量 “HE” 
(upper) 统 计量 和 “向 下 ”(lowen) 统 计量 的 公式 如 下 : 
ct =0;C7 =0, (6) 
Cj =max{0,7, + Ci1};C; =min{0,7,+C;4}, (7) 


T, -TX P(X, = 16) (8) 


如 (6) 式 所 示 ，C7 和 C7 的 初始 值 都 为 0, 由 公式 (7) 
TA, G 恒 为 非 负数 ，C7 恒 为 非 正 数 。 现 定义 
C7 和 Cj 两 个 PFS 的 临界 值 分 别 为 U8 和 LB。 当 
C} SUB KC; SLB, Fae BAA BLT EE 
答 。 在 0-1 计 分 测验 中 ， 当 被 试 答 错 题目 j 时 ,7 
ARM, SAMBA SI, TATE. WR IAM 
FT te AARG, WU Se Be OT, ENER 
(负数 ) 因此 统计 量 C7 ( C7 ) 会 一 直 增 大 ( 减 小 )， 
当 超 过 临界 值 后 ， 作 答 将 被 判 为 异常 。 因 此 ， 基 于 
CUSUM 的 PFS 在 应 用 中 倾向 将 突然 出 现 的 一 段 
“连贯 "作答 序列 〈( 即 一 段 得 分 多 数 为 0 或 多 数 为 1 
的 序列 ) 诊 断 为 异常 。 一 般 而 言 ， 这 种 情况 意味 着 
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被 试 作答 模式 在 此 处 产生 了 突然 的 变化 ,这 种 变 
化 可 能 是 由 于 疲劳 、 加 速 作答 、 注 意 力 不 集 中 或 
预先 了 解 试题 等 原因 所 致 (Sinharay, 2017b)。 Jf AL, 
从 上 述 介 绍 中 也 可 得 知 : 由 于 CUSUM 考虑 到 了 
题目 顺序 信息 并 采用 基于 累积 和 的 统计 量 实施 侦 
BEES, 因此 也 具备 检测 作答 序列 中 可 能 出 现 的 

多 种 异常 效应 的 能 力 。 
3.2 ”基于 双 侧 统计 量 的 题目 平均 加 权 残 差 的 PFS 
在 单 侧 统 计量 的 基础 上 ,Tendeiro 和 Meijer 
(2012) 提 出 了 基于 双 侧 (two-sided) 统 计量 的 题目 

平均 加 权 残 差 的 PFS: 
C7 = max Cr - min Cj. (9) 


ijxy /7 isj<y 7 
双 侧 统计 量 CT 整合 了 Cl 和 C7 中 的 信息 ,其 值 
等 于 整个 作答 序列 中 “向 上 ”统计 量 Cy 和 “向 下 ” 
统计 量 C7 的 最 大 差 值 。 当 C7 大 于 临界 值 时 ， 判 
断 该 序列 为 异常 。 
除了 上 述 基 于 题目 平均 加 权 残 差 (7 = 


Tx, -PO =ô PFS， 研 究 者 还 提出 了 其 
È CUSUM 统计 量 , 但 是 公式 的 表达 形式 都 是 一 
样 的 ， 只 是 将 题目 平均 加 权 残 差 替 换 成 其 他 内 容 ， 
如 对 数 似 然 比 等 (Armstrong & Shi, 2009; van 
Krimpen-Stoop & Meijer, 2001), ILA A FRA , 
3.3 CUSUM 图 像 的 应 用 案例 
为 便于 理解 ， 此 处 以 一 个 具体 的 CUSUM 图 
像 为 例 来 介绍 其 使 用 方法 和 注意 事项 。 图 1 展示 
了 三 名 被 试 作答 序列 的 CUSUM 图 像 : 被 试 1 为 
正常 作答 的 被 试 , 被 试 2 和 被 试 3 为 异常 作答 被 
试 。 各 图 中 正三 角形 表示 C7 ， 倒 三 角形 表示 C, 
且 中 央 两 根 水 平实 线 分 别 代表 CF 和 C7 的 临界 值 ， 
即 UB 和 KB。 图 中 可 以 看 出 ,两 名 被 试 的 PFS 都 
会 在 测验 的 某 些 位 置 超出 临界 值 ， 因 此 两 人 的 作 
答 都 被 判定 为 异常 。 需 要 注意 的 是 : CUSUM 的 
PFS 是 一 种 基于 累积 和 的 统计 量 ， 当 被 试 在 某 题 
处 的 PFS 超过 了 临界 值 ， 并 不 意味 着 该 被 试 这 题 
附近 出 现 了 异常 。CUSUM 的 PFS 是 不 断 累 积 计 
FY, 应 当 取 离 达 到 临界 值 之 前 最 近 的 PFS = 0 
的 题目 位 置 为 变 点 估计 值 (Lai, 2001)。 比 如 被 试 3 
的 C7 虽然 在 第 53 题 处 低 于 LB, 但 PFS 从 第 31 
题 处 开始 累积 ， 说 明 他 在 该 题 附近 开始 出 现 异 常 
作答 。 并 且 ， 被 试 2 和 被 试 3 在 测验 的 不 同位 置 
出 现 异常 作答 ,根据 异常 出 现 的 位 置信 息 和 具体 


形态 可 对 其 产生 原因 作 初 步 推 新 ， 如 被 试 2 在 测 
验 初期 大 部 分 题目 都 答 错 了 ， 导致 出 现 了 “向 下 ” 
的 异常 ,之 后 表现 较 好 ,原因 可 能 是 测验 刚 开始 
尚未 熟悉 测验 内 容 。 而 被 试 3 在 测验 后 期 出 现 的 
异常 可 能 是 因 疲 劳 或 加 速 作 答 所 致 。 


被 试 1 
0.2} 
(ibe 
a 
= ol pein ea glera 
图 FRR RAR 
-0.1r TB 
-0.2 上 
0 5 10 15 20 25 30 35 40 45 50 55 60 
题目 序号 
被 试 2 


oi} 4-2 


ja cote ee 
= or a OP ile 
Ñ Tans P 


LB wy 


—0.1 F 


(a a ee eae SS 
0 5 10 15 20 25 30 35 40 45 50 55 60 
题目 序号 


被 试 3 


= 
+ O Creare prea IO Ra a Aw 
& 


01F TB Weg 


0 5 10 15 20 25 30 35 40 45 30 55 60 
题目 序号 
图 1 三 名 被 试 的 CUSUM 图 像 


3.4 两 种 CUSUM 的 PFS 简 评 

CUSUM 是 一 种 基于 序列 的 技术 , 在 每 道 题 
后 立即 更 新 统计 量 数值 ， 由 于 可 输出 图 像 ， 该 方 
法 具有 可 视 化 的 优势 。 通 过 观察 图 像 ， 能 迅速 明 
晰 异常 反应 发 生 的 位 置 (Meijer 2002)。 和 凭借 这 种 
优势 , CUSUM 还 可 在 基于 计算 机 (computer-based) 
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的 测验 中 实施 过 程 监控 (process monitoring): 通过 
计算 机 程序 实时 监控 被 试 的 整个 作 管 过 程 ， 当 异 
常 出 现 后 迅速 反馈 给 测验 管理 者 ， 以 便 及 时 实施 
干预 。 但 是 在 纸 笔 测 验 (P&P) 中 ,， 则 无 法 进行 干预 。 
两 种 CUSUM 的 PFS 中 ,基于 单 侧 和 双 侧 的 
指标 各 有 所 长 。 若 在 侦查 伊始 , 测验 管理 者 对 于 
待 侦查 的 异常 反应 类 型 有 明确 认识 ,建议 选择 基 
于 单 侧 的 PFS。 例 如 ， 当 需要 探测 被 试 是 否 出 现 
了 加 速 作答 ， 可 直接 选用 “向 下 ”的 PPS 。 而 如 果 测 
验 管理 者 的 目标 是 侦查 “笼统 ”而 非 某 种 特定 的 异 
党 反应 ， 即 仅仅 对 于 标定 测验 中 的 异常 作答 被 试 
感 兴趣 ， 此 时 双 侧 PFS 会 比 单 侧 PFS 更 适用 。 并 
且 , 实际 测验 中 双 侧 统计 量 C7 往往 会 比 单 侧 统 
计量 CF 和 C7 更 加 有 效 , 原因 在 于 : 实际 测验 中 
能 力 真 值 6 无 法 获知 ， 所 使 用 的 是 能 力 估计 值 
Orctimate 。 假 设 被 试 i 在 测验 的 前 半 部 分 以 真实 能 
H Opu 作答 ， 而 在 后 半 部 分 以 更 高 (更 低 ) 的 能 
Oysewant 作答 。 此 时 根据 整个 作答 序列 估计 得 到 被 
试 能 力 值 Ce ， 其 取 值 必 介 于 05 与 Oberan 
之 间 。 如 此 一 来 , 单 侧 统计 量 的 PFS 在 测验 的 两 
半 部 分 (无 论 是 正常 还 是 异常 部 分 ) 都 会 表现 出 异 
常 : 其 中 一 半 将 会 表现 出 “向 上 ”的 异常 ， 另 一 半 会 
表现 出 “向 下 ”的 异常 。 双 侧 PFS 由 于 结合 了 两 类 单 
侧 PFS 的 信息 可 有 效 避 免 这 种 情况 发 生 (Armstrong 
& Shi, 2009)。 通 过 基于 CUSUM 的 PFS 指标 ， 可 
以 清晰 了 解 异 常 反应 在 作答 序列 中 的 位 置 。 然 而 ， 
当 侦 测 任 务 需 要 确定 变 点 位 置 时 ,测验 管理 人 员 
须 亲 自 检 查 CUSUM 输出 图 像 以 定位 变 点 ， 比 较 
费时 费力 。 接 下 来 介绍 的 CPA 可 以 免 去 人 工 检 查 
的 麻烦 ， 由 算法 自动 精准 定位 变 点 ， 有 效 节 省 人 
力 资 源 。 


4 基于 CPA 的 异常 反应 侦查 


CPA 以 一 种 完全 不 同 于 CUSUM 的 视角 来 看 
竺 异常 反应 侦查 的 问题 ， 它 可 以 检测 出 由 随机 变 
量 组 成 的 序列 中 ,是 否 存在 一 个 或 多 个 变 点 : 在 
变 点 前 后 模型 或 模型 参数 是 相 异 的 。 但 与 CUSUM 
一 样 , CPA 在 使 用 中 需 构 造 PFS 以 实现 侦 测 。 
4.1 CPA 四 种 常用 的 PFS 

当前 心理 与 教育 测量 学 中 常用 的 4 种 CPA 的 
PFS 主要 有 基于 似 然 比 检验 的 Laa BET Wald 检 
验 的 Wana ， 基 于 得 分 检验 的 Sn 和 基于 加 权 残 差 
的 Ro 前 3 种 PFS 由 Shao 等 人 (2016) 和 Sinharay 


(2016，2017a，2017b，2017c) 提 出 ,而 最 后 一 种 由 
Yu 和 Cheng (2019) 提 出 。4 种 PFS 构造 的 基本 原 
理 都 在 于 : 者 某 被 试 作答 序列 中 存在 变 点 ， 则 此 
序列 能 以 题目 n 为 界 划 分 为 两 个 子 序列 : 序列 1 
为 Xo Xs, 序列 2 为 Xi rs Xz 0 这 
两 个 子 序 列 在 某 种 统计 学 属性 上 具有 根本 性 差异 ， 
CPA 的 PFS 可 量化 这 种 差异 。 若 PFS 在 变 点 取 n 
时 数值 最 大 且 达 到 显著 则 表明 第 n 题 为 变 点 位 
置 。 
4.1.1 ”基于 似 然 比 检验 (likelihood ratio tesb 的 
PFS 
首先 构造 检验 虚无 假设 6, = O, FF AEF W 
然 比 检验 的 统计 量 ， 当 n 取 某 已 知 的 值 时 ， 对 数 
化 处 理 后 的 统计 量 如 下 所 示 : 
L, =-2{L(0,. 993% jf =1,2,…,7) — 

Ls (Gos Ving X CG =1,2,-+-,)— 

Lyn» Fans X joj =n +12 +2,--,J)}, (10) 
ih, 7 是 由 题目 参数 向 量 和 4 和 bb 构成 的 集合 。 
Op 和 3 表示 由 该 被 试 整体 作答 数据 估计 的 参数 ， 
Ôn Pin Fl oy Pan 分 别 表示 由 变 点 前 后 作 管 序列 
所 估计 的 参数 。 上述 参 数 通 过 传统 IRT 模型 估计 
BE, DA Lnr 为 例 ， 对 数 似 然 函数 的 具体 展开 形 
式 为 : 

EO a Tih od =1,2,---,n)= 


n 


DIX log P,(G,,)+0-X )logd -PO). AD 


jal 
为 方便 理解 ， 此 处 只 考虑 一 处 变 点 的 情况 , 且 
I<nSJ-1, fin 取 值 范围 内 , 定义 基于 似 然 比 


检验 的 PFS 指标 Lnax 为 : 
Laax = max Lp (12) 


me tenet 
Liman 检验 的 虚无 假设 Ay Os 此 序列 不 存在 变 点 
( 即 对 于 取 值 范围 内 任意 n, 6,,=0, 始终 成 立 ); 
对 应 的 备 择 假设 及, 为 : 序列 至 少 存在 一 处 变 点 。 
对 于 工 , 而 言 ， 在 虚无 假设 下 服从 自由 度 为 1 的 渐 
近 六 分 布 , 这 是 因为 : 似 然 比 检验 的 统计 量 服从 
自由 度 为 两 嵌 套 模型 未 知 参数 个 数 之 差 的 渐 近 
Xx 分布， 此 处 的 约束 模型 (虚无 假设 模型 ) 与 无 约 
束 模型 ( 备 择 假设 模型 ) 相 比 只 多 了 一 个 约束 条 件 
(A, = 刀 ,)， 两 模型 中 未 知 参数 个 数 相 差 1， 因 此 
这 里 的 自由 度 为 1 后 文 将 介绍 的 基于 Wald 检验 
的 和 得 分 检验 的 PFS 同 理 。 然 而, Al L mas LL, AY 
最 大 值 ， 所 以 Linax 不 服从 某 个 自由 度 已 知 的 卡 方 


| 
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分 布 (Chen & Gupta,，2012)， 并 无 建议 的 分 布 , 它 


假设 On =O, 的 正确 性 。 当 二 取 某 给 定 值 时 ,统计 


的 虚无 假设 分 布 (null hypothesis distribution) 能 通 
过 蒙特 卡 洛 模拟 获得 ， 并 可 以 根据 虚无 假设 分 布 
得 到 各 显著 性 水 平 上 的 临界 值 LcoLc 作 为 临界 值 ， 
可 用 于 判断 基于 似 然 比 检验 的 Lina 是否 越界 。 若 
Lina > Lc ， 则 认为 该 作答 序列 存在 变 点 ， 并 得 到 
变 点 的 具体 位 置 m 即 在 题目 “后 被 试 的 作答 发 生 
BAR AF Linge <Lc， 则 认为 该 被 试 作答 正常 , 不 存 
在 变 点 。 

Linax 适用 于 双 侧 检验 (two-sided test)， 以 检验 
虚无 假设 ,的 正确 性 。 当 侦查 目标 仅仅 是 检测 被 
试 的 作答 序列 中 是 否 存在 变 点 而 不 考虑 能 力 变化 
方向 时 ， 采 用 这 个 统计 量 是 合适 的 。 然 而 ， 当 侦查 
任务 是 检验 由 某 种 目标 效应 (如 加 速 作答 ) 导 致 产 
生 的 变 点 时 ， 则 需 对 La 进行 变换 ,例如 ， 当 检测 
某 个 可 能 存在 加 速 作答 的 作答 序列 时 , 检验 的 虚 
无 假设 五 ,为 :对 于 取 值 范围 内 任意 n，0,, <O, 48 
终 成 立 。 这 种 情况 下 ,引出 Lai 的 单 侧 检 验 形式 
(Sinharay, 2017a), 首先 有 : 

JL, #6, = 6., 

m ir <b. 

Hp, Â 是 基于 受 某 效应 影响 的 作答 序列 估计 能 
力 值 ， 是 正常 作答 序列 估计 能 力 值 。 L, 是 单 侧 
检验 统计 量 ,其 绝对 值 等 于 工 的 平方 根 ,， 并 且 在 
虚无 假设 下 服从 渐 近 的 标准 正 态 分 布 , 原因 在 
F: 在 虚无 假设 下 6 > 6. 5 6, < 人 是 等 可 能 出 现 
的 ， 因此 工 , 取 正 或 负 的 符号 次 数 也 是 趋 近 的 ， 且 
由 于 工 , 的 绝对 值 等 于 工 的 平方 根 ， 元 服从 自 
BEA 1 的 浙 近 Xx? 分布, 所 以 工 , 在 虚无 假设 下 服 
从 渐 近 标准 正 态 分 布 。 当 异常 部 分 的 能 力 估 计 值 
高 于 正常 能 力 估计 值 时 , 使 用 正 的 统计 量 进 行 检 
验 , 否则 使 用 负 的 统计 量 。 
FUL, 单 侧 PFS 指标 到 可 表达 为 : 
| max Ly, Ho: 对 任意 n 都 有 0Q = 0, 


(13) 


1SnSJ-1 
14 
= min L,,, Hy: 对 任意 n 都 有 0 < 0. a9 


sS S 


Jos 


‘Ss 


1SnSJ-1 
例如 ， 当 需要 检验 某 被 试 是 否 存在 加 速 作 答 
时 , 使 用 的 PFS 指标 为 到 = min Ly, 此 时 若 L 
显著 低 于 临界 值 ， 则 拒绝 虚无 假设 , 认为 被 试 存 
在 加 速 作答 行为 并 可 由 此 定位 变 点 。 
4.1.2 ”基于 Wald 检验 (Wald test) 的 PFS 
基于 Wald 检验 的 统计 量 也 可 用 于 检验 虚无 


量 的 公式 如 下 : 
0, -0,) 
Fin) Lan (Oo) 

其 中 ,7 表示 对 应 作答 序列 (序列 1 和 2) 所 有 题目 的 
Fisher 信息 量 总 和 。 题 目的 信息 量 是 IRT 中 用 于 
衡量 某 题 对 特定 能 力 值 被 试 可 提供 测量 精度 的 指 
标 , 信息 量 越 大 ， 表示 该 题 对 于 这 种 能 力 被 试 的 
测量 效果 越 好 。 注 意 : 此 处 计算 信息 量 使 用 的 是 
通过 整个 作答 序列 估计 的 能 力 值 % o 

题目 7 的 信息 量 公 式 为 


2,2 
1.7 a; 


(15) 


Tpy = ; (16) 
j(0) er 48 )r 43 e70- 
与 Linax 类 似 地 , Wa 表示 为 : 
Wag F max W, (17) 
ISnSJ-1 


同样 地 ， 该 指标 检验 的 虚无 假设 Ay: 此 序列 不 
存在 变 点 ; 备 择 假设 H, 为 : 序列 至 少 存 在 一 处 变 
点 。Andrews (1993) 以 及 Csorgo 和 Horvath (1997) 
发 现 ， 当 变 点 位 于 作答 序列 最 前 或 者 最 后 几 题 时 ， 
ou 的 侦 测 效力 (power) 将 会 变 得 十 分 小 。 因 此 ， 
Andrews (1993) 建 议 将 n 限定 在 整个 作答 序列 的 
中 间 约 70% 的 范围 ， 即 到 a = max W, Ji 取 靠 


ıSnSJ-J, 


UE 0.157 的 整数 ， 以 增强 检测 效力 。 对 于 前 述 Znan 
也 可 以 在 使 用 时 做 此 限定 ， 提 高 侦 测 效力 。 

基于 Wald 检验 的 统计 量 ,is 适用 于 双 侧 检 
验 ， 当 进行 单 侧 检 验 时 ， 只 需 对 (15) 式 右 侧 开 根 
号 ， 变 成 单 侧 检验 统计 量 Wn (Estrella & Rodrigues, 
2005): 


ô,- ô 
wW In 2n 1 
sn | I I > ( 8) 
一 十 z 
71,(0) 1,(0) 
此 时 , 单 侧 检 验 的 指标 到 ,表达 式 为 : 
| max W Hy: 对 任意 n 都 有 0 S bns 


1SnSJ-1 


= min Wp, Hy: 对 任意 n 都 有 0 


In 


W = 


s 


三 0 
| 2n 


E W, Ii FMB 2 EN h, 当 到 ,显著 大 于 临 
界 值 h 时 ， 可 拒绝 虚无 假设 Ay XER n 有 
0, 三 , 。 即 认为 序列 中 存在 变 点 且 被 试 在 变 点 
前 的 能 力 高 于 变 点 后 能 力 , 例如 在 测验 中 出 现 加 
速 作答 ， 当 到 , 取 值 显著 小 于 临界 值 ~-h 时 ， 则 可 拒 
绝 虚无 假设 Hy: 对 任意 n A On Z Ono BUA 


| = 
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列 中 存在 变 点 且 被 试 在 变 点 前 
力 , 例如 出 现 热身 效应 。 
41.3 ”基于 得 分 检验 (score test) 的 PFS 

基于 得 分 检验 的 统计 量 5 可 检验 虚无 假设 
=6,,, “Sn 取 某 给 定 值 时 ， 表达 式 为 : 
[VOX jL 

L, (Ê) 
[VQ:X p j=n+l,n+2, JJP 
L, (Ê) 

EP, WÂ; Xj =1,2,n) 和 VAX) j=n+1, 
n+2, e, J) 分 别 指 作答 序列 1 和 2 在 9= 负 处 对 数 
似 然 函 数 的 一 阶 导 数 。V(b;X =1L2……7 的 展 
开 式 详 见 Baker 和 Kim (2004, pp. 64-71)。 

类 似 地 ， 


能 力 低 于 变 点 后 能 


An = 


n 


(20) 


> 


Snax = Max S, (21) 


MaX 1<n<J-1 


Smar 检验 的 虚无 假设 为 : 此 序列 不 存在 变 点 ; 而 备 
择 假设 为 : 序列 至 少 存在 一 处 变 点 。 这 里 也 可 将 
n PUEY EREE J -J E, 以 增强 检测 
效力 。 
Smax 与 Lnax 一 样 ， 更 适用 于 双 侧 检验 ,在 单 侧 
检验 中 , 统计 量 应 变更 为 如 下 形式 : 
(22) 
-JS 476, < &. 
Sw 是 单 侧 检 验 统计 量 ， 各 符号 意义 与 4.1.1 中 单 
侧 统 计量 工 , 一致。 
Ke, HM] PFS 指标 S, 可 表达 为 : 
. max Sons Ho: 对 任意 n 都 有 Q, 宇 Oz, 


1SnSJ— 


= min S Hy: 对 任意 zx 都 有 Q < Q.. 


sn? 


S = 


5 


(23) 


1SnSJ- 

EDTA HIE L, — BL. 
4.1.4 ”基于 加 权 残 差 (weighted residuaD 的 PFS 

为 探测 被 试 在 心理 测验 中 的 后 期 随机 作答 
(back random responding) 行 为 , Yu 和 Cheng (2019) 
构建 了 基于 加 权 残 差 的 PFS 指标 。 对 于 测验 中 正 
营 反 应 的 被 试 而 言 ， 其 观察 得 分 模式 会 与 期 望 得 
分 模式 十 分 接近 。 而 对 于 异常 反应 被 试 ， 观 察 与 
期 望 得 分 模式 之 间 会 产生 较 大 的 偏离 。 基 于 加 权 
残 差 PFS 的 原理 在 于 : 找到 某 个 能 够 将 完整 作答 
序列 划分 为 两 个 子 序列 的 点 , 该 点 可 使 两 个 子 序 
列 的 平均 绝对 加 权 残 差 (ABWR; average absolute 
weighted residual) 之 间 的 差 值 最 大 化 。 具体 构造 流 


程 如 下 : 
Yu 和 Cheng (2019) 的 研究 基于 多 级 计 分 的 心 
理 测验 , MÆ r (Ô 公式 为 : 
X.-E(X,|6) 


y | i 
e 8) ; (24) 


式 中 分 子 即 观察 与 期 望 得 分 间 残 差 的 表达 式 ， 表 
示 观 察 与 期 望 得 分 之 间 的 偏离 程度 。 分 母 是 对 于 
给 定 能 力 为 6 的 被 试 , 他 在 第 j 题 上 的 得 分 为 X; 
的 概率 。 在 0-1 计 分 下 ,加 权 残 差 可 以 表示 为 : 
X,-P(X, =110) 


ALİ j 
r,(0) Pm (25) 


一 步 地 ， 
R= Sd 人 -站 (26) 
jal 


n jz =n+l 


H F Yu 和 Cheng (2019) 侦 测 的 是 后 期 随机 作答 现 
象 , 因此 这 里 只 使 用 到 由 变 点 前 的 正常 作答 序列 
计算 的 能 力 值 0, 。 而 且 , 不 局 限于 后 期 随机 作答 ， 
只 要 是 侦查 在 测验 后 期 出 现 的 异常 情况 , 均 可 采 
HCO. 车 要 侦查 测验 前 期 异常 ， 那么 式 子 可 以 
转变 为 : 


~ 


> > IÂ) (27) 


n j= =n+l 


最 终 ， 基 于 加 权 残 差 的 PFS， 即 Rj 的 公式 为 : 
及 = Max R, (28) 


maxX 1<n<J-1 


与 前 述 Liars Wmas 和 Snax = FET SA AYE, Rmax 
在 n 给 4 定 下 的 统计 量 R, noen 
Ai, =0,， 而 是 检验 测验 前 期 (后 期 ) 是 生 异 常 
反应 。 对 于 R, 而 言 ， 某 子 序列 的 ABWR ene 
子 序列 观察 与 期 望 得 分 模式 之 间 的 偏离 程度 ， 当 
变 点 前 后 子 序 列 ABWR 的 差 值 超过 了 一 定 范 围 ， 
便 可 说 明 该 被 试 在 测验 前 期 (后 期 ) 出 现 了 异常 反 
Who 与 其 它 指标 相 比 , Rinax 更 适合 用 在 低 风险 的 心 
理 测验 之 中 。 心 理 测验 中 常 由 于 被 试 作答 动机 缺 
失 导 致 随机 作答 产生 。 然 而 ， 随 机 作答 不 一 

味 被 试 特质 水 平 的 变动 , 本 身 持 中 立 观点 的 被 试 
( 即 9 值 在 0 附近 ) 在 随机 作答 的 情况 下 能 力 估 计 
值 可 能 不 会 发 生 改变 。 假 设 Rina 的 临界 值 为 某 正 
Bh, 那么 异常 反应 的 判定 标准 为 :如 果 Rina 显著 
KF h, 对 于 (26) 式 而 言 , 说 明 被 试 在 测验 后 期 出 
了 异常 反应 ,而 对 于 (27) 式 ， 则 说 明 前 期 出 现 异常 。 
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4.1.5 CPA 四 种 常用 的 PFS 简 评 


1) 模 拟 10000 名 被 试 的 作答 ,被 试 的 能 力 分 


CPA 的 四 种 PFS 的 基本 原理 都 在 于 : 判断 是 
否 存 在 可 将 被 试 作答 序列 划分 为 统计 学 属性 上 具 
有 根本 差异 两 部 分 的 点 ， 并 定位 该 点 位 置 。Liax、 
W maxs Smax FU R mars 四 种 指标 具有 不 同 特性 , Lmax 
W nas 和 Snax 的 统计 量 Las Wp 和 5, 用 于 检验 虚无 
假设 On =O, , PIE Linaxs Wmas 和 Siar 作为 双 侧 检 
验 指标 而 存在 。 即 当 侦查 目标 仅 是 检测 序列 是 否 
存在 异常 反应 ,未 对 异常 类 型 有 明确 限定 时 ,此 
时 使 用 这 些 指 标 是 比较 好 的 。 当 然 , 这 三 种 指标 
也 有 单 侧 形 式 ， 当 目标 是 侦查 具体 的 异常 反应 类 
型 (如 加 速 作 答 ) 时 ,适合 使 用 单 侧 指标 。 并 且 , 在 
具体 应 用 层面 上 , Lmax Wmas 和 Sax 三 种 指标 更 适 
用 于 高 风险 (high-stakes)、 大 规模 (large-scale) 的 教 
育 测验 。 而 Rina 因 其 本 身 特性 , 它 的 统计 量 R, 不 
用 于 检验 虚无 假设 0, =, 而 是 检验 测验 前 期 
或 后 期 是 否 存 在 异常 。 当 测验 管理 者 对 于 待 侦 测 
的 目标 效应 有 明确 了 解 时 , 例如 已 明确 了 侦 测 目 
标 是 后 期 随机 作答 ， 此 时 使 用 Ra 是 合适 的 。 在 
应 用 层面 上 ，Rwex 更 适用 在 低 风 险 (low-stakes) 的 
心理 测验 当中 。 

Sinharay (2016) 在 计算 机 自 适 应 测验 的 环境 
下 对 Due Wmas 和 Sax 三 种 PFS 实施 了 模拟 研究 。 
结果 表明 : 三 种 PFS 中 ,基于 Wald 检验 的 Wmax 
效力 最 高 ， 基 于 似 然 比 检验 的 Lina 效力 其 次 ， 而 
基于 得 分 检验 的 Smar AJI AR o Yu 和 Cheng (2019) 
将 Lmass Winars Smax 和 Rmax 四 种 PFS 一 同 用 于 探测 
后 期 随机 作答 ,并 对 它们 的 探测 性 能 进行 比较 。 
结果 发 现 : 四 种 PFS 对 于 侦 测 任务 的 一 型 错误 率 
(Type-I error rate) 都 控制 得 很 好 , 但 是 Rai 的 效力 
要 比 其 他 三 种 PFS 高 出 17% 到 42%。 
4.2 CPA 中 PFS 临界 值 的 确定 方法 

在 使 用 CRA 进行 异常 反应 侦 测 时 ， 必须 借助 
PFS, litt PFS 临界 值 的 确定 十 分 重要 。 如果 PFS 
的 临界 值 选 取得 不 合适 ， 侦 测 的 准确 性 会 大 幅 降 
低 ， 导 致 CPA 的 价值 大 打折 扣 。 目 前 对 于 Lina, 
W maxs Smax 和 Rmax MAAE Le, We, Sc 和 Re 的 获取 ， 
研究 者 们 提出 了 多 种 方法 。 在 此 介绍 两 种 使 用 较 
广 的 方法 : Worsley (1979) 提 供 的 蒙特 卡 罗 模 拟 
(Monte Carlo simulation) 的 方法 以 及 Storey 和 
Tibshirani (2003) 提 出 的 FDR 控制 的 方法 。 
4.2.1 ”蒙特 卡 罗 模 拟 

此 方法 的 具体 步 又 如 下 : 


布 从 N (0, 1) 中 抽取 , 通过 能 力 参数 和 已 知 的 题目 
参数 生成 这 些 被 试 的 作答 矩阵， 因此 这 些 被 试 都 
视 为 正常 作答 ,这 一 步 共 重复 B( 如 B=50) 次 。 

2) 根 据 每 次 重复 下 每 名 被 试 的 作答 数据 可 以 
计算 出 其 Linas Wmas Smas 或 Rmaco TER: 此 处 计 
算 中 使 用 的 是 估计 能 力 值 0。 © 

3) 每 一 次 重复 下 的 10000 个 Dee Winars Smax 
或 Ra 构成 虚无 假设 分 布 ， 若 设 定 显著 性 水 平 为 
0.05， 则 当中 第 500 大 的 数 视 为 相应 临界 值 的 估 
计 值 ， 然 后 将 总 共 B 次 重复 条 件 下 所 有 估计 值 的 
平均 数 作 为 Lc、Wc、Sc 和 Re 的 最 终 取 值 。 
4.2.2 FDR 控制 法 

在 一 项 包含 N 名 被 试 的 测验 中 , 需要 同时 检 
验 N 个 假设 ( 即 对 每 名 被 试 是 否 作答 异常 进行 检 
验 ), 需要 比较 入 次 PFS 与 临界 值 的 大 小 ， 这 属于 
多 重 比 较 (multiple test), Shao 等 人 (2016) 认 为 , 此 
时 临界 值 的 设 定 不 能 按照 普通 做 法 以 0.05 或 0.01 
为 显著 性 水 平 ， 而 应 进行 校正 。 一 般 有 两 种 常用 
校正 方式 , 一 种 是 Bonferroni 校正 (Bonferroni 
correction)， 将 显著 性 水 平 校 正 为 0.05/N 或 者 
0.01/N, 但 由 于 实际 测验 中 样本 容量 N 的 值 很 大 ， 
所 以 这 种 方法 过 于 严格 保守 ,在 每 一 次 假设 检验 
中 都 很 难 拒绝 虚无 假设 ; 另外 一 种 方法 是 控制 错 
误 发 现 率 (false discovery rate, FDR; Benjamini & 
Hochberg，1995)。 在 基因 学 研究 中 这 种 方法 经 常 
用 于 多 重 比 较 的 校正 (Benjamini & Hochberg, 
1995; Genovese, Lazar, & Nichols, 2002; Li, Witten, 
Johnstone, & Tibshirani, 2012; Schwartzman & Lin, 
2011). FDR 表示 错误 标记 的 数目 占 标 记 总 数 的 期 
望 比例 ， 此 方法 核心 思想 在 于 将 错误 发 现 率 控制 
在 可 接受 的 水 平 。 例 如 在 一 次 测验 中 ,经 侦查 后 
将 100 名 被 试 标记 为 异常 作答 , 在 这 100 名 被 试 
中 , 90 名 是 真正 异常 作答 的 个 体 ， 另 外 10 名 其 实 
是 正常 作答 的 个 体 ， 属 于 错误 标记 ,因此 这 里 的 
FDR 值 为 0.1。 在 此 介绍 Storey 和 Tibshirani (2003) 
提供 的 步骤 ,为 便于 讲解 ， 仅 以 Le 的 确定 过 程 为 
WEITERE, 具体 步 又 如 下 : 

1 在 已 有 实测 数据 的 情况 下 ,重新 排列 每 名 
被 试 作答 数据 的 顺序 ， 然 后 计算 单 次 排序 下 所 有 
人 的 Lmao 总 共 重 排 B 次。 每 次 重 排序 后 所 有 被 
试 的 Lina RE UE ME TOBA ME o 
2) 了 为 临界 点 工 。 的 取 值 ， 是 未 知 数 。 在 此 有 
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如 下 公式 : 5 CUSUM 与 CPA 的 综合 分 析 与 比较 
B N 
BODDI Lo >T) 5.1 CUSUM 5 CPA 基本 思路 的 分 析 与 比较 
FDR= 一 六 一 ， (29) CUSUM 45 CPA 同属 于 异常 反应 侦 测 的 方法 ， 
2 Lax >T) 用 于 分 析 被 试 作答 序列 中 是 否 存 在 转变 点 ， 从 更 


i= 


其 中 , b 是 重 排序 的 序号 , 7 为 指示 函数 ， 当 
Linge > 了 了 时，7=1， 即 因 指标 超过 临界 值 被 标记 
为 异常 ,否则 ，7T=0 FDR 取 值 可 以 根据 研究 和 
应 用 的 需要 人 为 设 定 , 统计 学 界 一 般 建议 设置 为 
0.2。 于 是 可 解 得 一 个 最 小 的 了 值 满足 FDR <0.2, 
如 此 便 得 到 了 临界 点 Lc 的 值 。 

FDR 控制 法 的 原理 在 于 : 分 母 是 被 标记 为 异 
党 反应 的 被 试 总 数 , 分 子 是 对 于 总 共 B 次 重 排序 
而 言 ， 被 标记 为 异常 反应 的 被 试 的 平均 数 。 每 次 
重 排序 后 所 有 被 试 的 作答 序列 都 视 作 正常 作答 序 
列 ， 故 每 次 重 排序 下 所 有 PFS 构成 虚无 假设 分 布 ， 
分 布 中 大 于 临界 值 的 Lj 都 认为 是 错误 标记 。 因 
此 ,公式 (29) 充 分 解释 了 “FDR 是 错误 标记 的 数目 
占 标 记 总 数 的 期 望 比 例 ” 这 一 定义 。 
4.2.3 ”CPA 中 PFS 临界 值 的 确定 方法 简 评 

蒙特 卡 罗 模 拟 与 FDR 控制 法 各 有 所 长 。 蒙特 
卡 罗 模 拟 通 过 生成 的 被 试 参数 9 和 已 知 的 题目 参 
数 产 生 模 拟 作答 ,然后 在 一 定 显 著 性 水 平 下 取 顶 
端 数值 的 平均 数 作为 临界 值 ， 这 种 方法 较为 简便 
易 行 ,但 显得 比较 粗糙 。 而 FDR 控制 法 考虑 到 了 
多 重 比 较 中 显著 性 水 平 的 校正 ， 这 是 一 个 实际 
的 、 需 要 重视 的 问题 。 这 种 方法 控制 了 异常 反应 
侦 测 中 的 错误 发 现 率 , 使 错误 发 现 率 处 于 可 接受 
WKE, 这 符合 实际 情况 。 因 此 , FDR 控制 法 更 适 
合 应 用 于 心理 与 教育 测量 领域 。 


为 广泛 的 层面 上 而 言 ， 两 者 都 可 纳入 “ 变 点 分 析 ” 
的 范畴 。 但 是 两 种 方法 从 基本 思路 上 而 言 完全 不 
同 , CUSUM 按照 题目 顺序 依次 将 一 系列 正 或 负 的 
残 差 (观察 与 期 望 得 分 间 的 残 差 ) 累 加 求 和 ， 以 得 
到 单 侧 和 双 侧 PFS， 当 然 , CUSUM 可 以 累加 的 并 
不 限于 残 差 ,还 可 以 是 对 数 似 然 比 等 内 容 。 因 此 ， 
该 方法 在 每 题 后 都 可 更 新 PFS 的 值 。 而 CPA 的 基 
本 思想 在 于 判断 被 试 的 整个 作答 序列 是 否 可 以 在 
某 点 处 划分 为 两 个 子 序列 ， 这 两 个 子 序列 的 某 种 
统计 学 属性 上 的 差距 会 足够 大 ，CPA 的 PFS 可 量 
化 这 种 差距 ,并且 精准 定位 变 点 位 置 。 
5.2 CUSUM 与 CPA 优 缺 点 的 分 析 与 比较 
CUSUM 和 CPA KAFE, 表 1 陈列 了 这 两 
种 方法 的 各 项 特性 。CUSUM 的 最 大 优势 在 于 它 
提供 了 一 种 可 视 化 的 模式 ， 能 快速 清楚 地 获知 异 
常 反应 发 生 的 位 置 。 并 且 , 在 CAT 中 测验 人 员 还 
可 使 用 CUSUM 实施 过 程 监控 ， 及 时 地 干预 被 试 
作答 。 此 外 ， 它 还 具有 一 项 较 大 的 优势 : 通过 观 
察 图 像 , CUSUM 可 以 清晰 、 直 观 、 便 捷 地 进行 多 
变 点 (multiple change points) 分 析 。 但 是 , CUSUM 
的 缺点 在 于 : 它 必须 人 工 检 查 输出 的 图 像 以 定位 
变 点 ,并且 定 位 准确 性 相 较 CPA 更 差 。 与 之 对 应 
CPA 的 优点 是 : 它 不 仅 可 以 判断 某 被 试 是 否 出 现 
异常 反应 ， 还 能 自动 精确 地 定位 变 点 。CPA 无 需 
像 CUSUM 一 样 通过 观察 图 像 来 寻找 变 点 ， 而 是 


表 1 CUSUM 5 CPA 的 综合 比较 


CUSUM CPA 
主要 思想 按照 题目 顺序 依次 将 各 题 上 观察 与 期 望 得 分 间 的 残 找到 某 个 可 将 序列 划分 为 具有 不 同 统计 学 属性 两 部 
差 累积 求 和 。 分 的 点 。 
PFS 基于 题目 平均 加 权 残 差 的 单 侧 指标 C+ ，C; 和 双 侧 双 侧 指标 : 基于 似 然 比 检验 的 Ps ， 基 于 Wald 检验 
指标 C7 。 H Woy, ， 基 于 得 分 检验 的 8 和 基于 加 权 残 差 的 
Roux ， 以 及 各 自 的 单 侧 形式 。 
单 双 侧 指标 ”在 侦 测 前 已 明确 目标 效应 时 用 单 侧 指 标 , 未 明确 目标 效应 或 对 目标 效应 不 作 具 体 要 求 时 用 双 侧 指标 。 
优点 输出 图 像 ,可 用 于 过 程 监控 。 自动 精确 定位 变 点 。 
缺点 需 人 工 检查 图 像 来 定位 变 点 ,准确 性 较 低 。 当 变 点 位 于 序列 最 前 或 最 后 几 题 时 难以 定位 。 
适用 情境 。 变 点 前 后 模型 参数 已 知 。 变 点 前 后 模型 参数 未 知 。 其 中 Loo Woo 和 S 适用 


于 高 风险 (教育 ) 测 验 ，R. 适用 于 低 风 险 (心理 ) 测 验 。 
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直接 通过 PFS 得 到 “ 变 点 存在 与 否 ”的 结论 ， 如 果 
变 点 存在 ， 直 接 定位 它 最 有 可 能 的 位 置 。 这 在 大 
规模 测验 中 尤其 重要 ，CPA 方法 极 大 地 节省 了 人 
力 资源 ,这 是 它 的 一 大 优势 。 然 而 , CPA 也 有 缺陷 ， 
当 变 点 位 于 序列 最 前 或 最 后 几 题 时 ，CPA 的 检测 
效力 将 会 大 受 影 响 ， 此 时 很 难 对 异常 反应 实施 侦 
测 ， 且 难以 精确 定位 变 点 。 原 因 在 于 过 少 的 题 量 
无 法 对 被 试 能 力 值 9 形成 正确 估计 ， 因 此 正如 
4.1.2 中 介绍 的 : Andrews (1993) 建 议 将 变 点 探测 
范围 限定 在 整个 作答 序列 的 中 间 约 70% 的 范围 。 然 
而 在 实际 应 用 中 , 变 点 位 置 却 常 位 于 此 范围 之 外 。 

Sinharay (2016) 在 CAT 的 环境 下 实施 研究， 
发 现 了 基于 CPA 的 PFS (Looe + Wana FH Snax ) 侦 测 
效力 会 优 于 基于 CUSUM 的 PFS。 在 关于 实际 应 
用 中 应 该 选用 哪 种 方法 的 问题 上 ,Hawkins，Qiu 
和 Kang (2003) 认 为 : 当 变 点 前 后 被 试 的 作答 模型 
已 知 的 情况 下 ， 采 用 基于 CUSUM 的 PFS 会 更 加 
有 效 ; 然而 若 有 一 个 或 多 个 模型 参数 未 知 ， 则 基 
F CPA 的 PFS 更 优 。 在 心理 与 教育 测验 中 ， 模 型 
参数 难以 精确 估计 ,根据 包含 大 量 异 常 反应 数据 
的 原始 作答 和 矩阵 所 估计 的 参数 是 不 够 可 靠 的 。 因 
此 , 在 实际 检测 中 ，CPA 要 优 于 传统 的 CUSUM, 


极 大 的 便利 ， 帮 助 高 效 准 确 地 甄别 异常 反应 被 试 
对 作答 数据 进行 清洗 以 提高 参数 估计 精度 。 

虽然 CPA 在 异常 反应 侦查 中 具有 种 种 优势 ， 
但 在 实际 情境 的 应 用 中 必须 注意 : 绝 不 可 单 赁 该 
方法 对 被 试 进行 分 类 。CPA 归根 到 底 只 是 一 种 统 
计 学 方法 ， 它 对 于 被 试 的 分 类 一 一 即 “ 是 否 存在 异 
常 作答 ”一 一 只 是 一 种 统计 学 推论 ， 只 能 作为 一 种 
鉴别 异常 反应 被 试 的 辅助 手段 。 除 了 CPA 以 外 ， 
还 需要 其 他 来 源 的 证 据 支 持 ， 如 座位 次 序 图 表 、 
视频 监控 、 教 师 评 价 等 信息 ， 才 可 以 将 某 人 真正 
界定 为 异常 反应 。 本 文 介 绍 的 CUSUM 与 CPA 一 
样 同属 统计 学 方法 的 范畴 ， 因 此 同 理 。 这 一 点 在 
教育 测验 中 尤为 重要 : 仅 通过 CPA 方法 就 将 某 人 
视 为 作弊 者 ,进而 对 其 作出 处 理 ， 这 种 简易 的 论 
断 是 既 不 合理 也 不 应 该 的 。 正如 2013 年 美国 教育 
部 (United States Department of Education, 2013) 所 
指出 的 : 统计 分 析 是 推论 性 的 , 不 能 仅 任 此 下 最 
终 定论 。 因 此 ， 必 须要 正视 CPA 的 局 限 性 , 不 可 
以 过 度 使 用 此 方法 , 它 的 价值 更 多 地 在 于 通过 清 
洗 异 常数 据 来 提高 参数 估计 的 精度 ， 从 而 使 研究 
结论 更 具 可 靠 性 。 例 如 ,Shao (2016) 依 托 CPA 算 
法 设法 了 一 种 迭代 程序 来 修正 加 速 作答 影响 下 的 


所 以 应 当 在 心理 与 教育 测量 学 的 研究 与 应 用 中 推 
广 这 种 新 方法 。 


6 ”问题 与 展望 


在 心理 与 教育 测验 普遍 重视 测验 信 效 度 、 测 
验 安全 的 大 环境 下 ,异常 反应 侦查 已 成 为 一 项 不 
可 忽视 的 课题 , 并且 具有 重要 的 理论 与 实践 意 
义 。 当 前 对 异常 反应 侦查 的 研究 需求 已 十 分 紧迫 ， 
叹 需 得 到 开展 和 深入 。 异 常 反 应 现象 在 测验 中 十 
分 常见 , 会 直接 影响 研究 结论 的 可 靠 性 与 可 推广 
程度 。Shao 等 人 (2016) 认 为 ,数据 分 析 时 若 存 在 
加 速 作答 数据 会 使 题目 和 被 试 参数 估计 产生 偏差 ， 
而 有 偏 参 数 会 导致 测验 管理 者 对 分 数 作出 错误 解 
释 进而 实施 不 正确 决策 。 因 此 ， 当 下 吸 需 开发 并 
完善 行 之 有 效 的 异常 反应 侦查 方法 。CPA 在 医学 、 
气象 、 经 济 等 领域 的 应 用 已 有 很 长 一 段 时 间 , 但 
是 在 近 些 年 才 开 始 “移植 "到 心理 与 教育 学 领域 。 
它 相 较 于 传统 方法 具有 较 大 的 优势 ， 能够 自动 精 
确 地 检测 出 变 点 位 置 ， 有效 节省 人 力 资 源 。CPA 
结合 了 新 一 代 测 量 理论 一 一 项 目 反 应 理论 ,将 之 
运用 于 心理 与 教育 测量 领域 , 可 为 测验 人 员 提 供 


参数 估计 : 首先 使 用 原始 数据 估计 参数 ， 并 将 参 
数 估计 的 结果 用 在 CPA 中 侦 测 加 速 作答 被 试 ， 然 
后 移 除 加 速 部 分 序列 ， 再 使 用 清理 后 的 数据 重新 
估计 参数 ， 上 述 步 又 反复 进行 ,直至 满足 终止 规 
则 。 研 究 结果 表明 : 这 项 迭代 程序 可 以 较 大 地 提 
高 参数 估计 精度 。 并 且 ， 通 过 侦 测 出 各 被 试 的 具 
体 变 点 位 置 , 测验 管理 者 可 据 此 修正 测验 的 题 数 
和 时 长 ， 以 减少 受 时 间 压 力 影 响 在 测验 后 期 出 现 
加 速 作答 的 被 试 人 数 (Shao et al., 2016). 当前 CPA 
在 心理 与 教育 学 界 比较 “新 ” 且 国 内 心理 与 教育 
测量 领域 内 对 CPA 的 研究 还 处 于 一 片 空白 , 因此 
未 来 的 研究 方向 较为 广阔 。 现 对 CRA 研究 中 存在 
的 一 些 问 题 及 未 来 可 能 的 研究 方向 提供 一 些 建议 ， 
供 后 续 人 研究 者 参考 。 
6.1 多 变 点 情况 下 异常 反应 侦查 

本 文 只 讨论 了 作答 序列 中 存在 一 处 变 点 的 情 
况 ,， 未 对 多 变 点 分 析 进 行 介绍 。 事 实 上 ， 当 前 在 心 
理 与 教育 测量 学 界 ， 多 变 点 分 析 的 研究 还 相当 少 ， 
但 现实 中 多 变 点 现象 时 常 出 现 ,实际 测验 中 可 能 
出 现 两 种 或 多 种 效应 出 现在 同一 名 被 试 作答 过 程 
的 现象 , 如 某 被 试 在 测验 初期 存在 练习 效应 ， 中 
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期 存在 疲劳 效应 ， 后 期 存在 加 速 作答 。 如 此 一 来 


上 述 信息 ,可 极 大 提升 CPA 的 侦查 效力 。 因 此 , 在 


个 体内 能 力 水 平 可 能 会 发 生 数 次 变化 ,作答 序列 
会 存在 多 个 变 点 。 在 心理 与 教育 测量 之 外 的 领域 ， 
多 变 点 分 析 的 常用 方法 是 二 值 分 割 法 (binary 
segmentation, BS; Vostrikova, 1981): 首先 在 一 个 
完整 序列 中 找 出 某 个 最 可 能 的 变 点 , 它 将 该 序列 
划分 为 两 个 子 序 列 ,然后 在 这 两 个 子 序列 中 继续 
寻找 变 点 ,将 子 序列 划分 为 更 小 的 序列 ， 此 步 又 
不 断 循环 ， 直 到 满足 标准 后 终止 如 此 一 来 便 找 
到 了 多 个 变 点 。BS 可 以 很 方便 迁移 到 心理 与 教育 
测量 学 中 ， 以 深化 多 变 点 分 析 侦 测 异 常 反 应 的 研 
究 。 在 现今 的 测量 学 研究 与 应 用 中 ,多 变 点 比 单 
变 点 可 能 占据 更 重要 的 地 位 ， 某 种 意义 上 而 言 多 
变 点 分 析 的 研究 具有 更 大 的 意义 。 今 后 应 着 眼 于 
多 变 点 异常 反应 的 IRT 模型 构建 以 及 指标 和 方法 
开发 的 一 系列 研究 。 
6.2 ”结合 反应 时 的 异常 反应 侦查 

当前 对 于 异常 作答 的 侦查 主要 根据 被 试 在 各 
题 上 的 得 分 数据 ， 然 而 仅 赁 此 类 数据 会 产生 较 多 
的 判断 失误 。 因 此 ， 有 研究 者 建议 异常 反应 侦查 
时 可 以 结合 其 他 方面 的 信息 来 增强 检测 效力 , 例 
如 充分 利用 座位 次 序 图 表 , 视频 监控 和 后 续 面谈 


实际 应 用 中 可 以 考虑 结合 其 他 来 源 的 有 效 信息 来 
提高 侦查 的 准确 性 , 这 是 一 个 有 价值 的 研究 方向 。 
6.3 ”基于 非 参 数 化 PFS 的 异常 反应 侦查 

当前 研究 者 已 经 开发 出 了 四 类 CPA 的 PFS 指 
标 : 基于 似 然 比 检验 的 La.、 基 于 Wald 检验 的 
Wax、 基 于 得 分 检验 的 Smas 和 基于 加 权 残 差 的 
Rax。 四 类 PFS 都 基于 IRT 构建 ,同属 参数 化 指 
标的 范畴 。 在 CPA 领域 ， 目 前 尚 无 关于 非 参数 化 
指标 的 研究 。 非 参数 化 相 较 于 参数 化 的 方法 更 具 
简洁 性 ， 而 且 某 些 情 况 下 非 参 数 化 会 比 参数 化 指 
标 表 现 得 更 好 。 例 如 , Karabatsos 和 George (2003) 
对 36 种 传统 PFS 指标 进行 比较 研究 后 发 现 : 非 参 
数 化 的 PFS 比 参数 化 的 侦查 效力 更 高 。 原 因 可 能 
在 于 : 计算 参数 化 的 PFS 过 程 中 需要 对 同一 数据 
集 使 用 两 次 一 一 第 一 次 用 于 估计 IRT 参数 ， 第 二 
次 则 运用 这 些 参数 对 数据 进行 拟 合 ， 即 计算 PFS。 
因此 参数 会 和 数据 产生 关联 ， 而 非 参 数 化 的 PFS 
则 没有 这 种 关系 ,因此 ,在 将 来 CPA 的 研究 中 ,可 
对 非 参数 化 PFS 构建 这 一 方向 多 加 考虑 。 
6.4 ”多 级 评分 以 及 多 维 测验 下 的 异常 反应 侦查 

在 如 今 心理 测量 学 领域 , 多 级 计 分 的 量 表 占 


(Tendeiro & Meijer, 2014) 等 信息 。 并且 ,就 目前 而 
言 ， 反 应 时 是 一 种 较 容 易 获 得 且 十 分 有 效 的 信息 ， 
基于 计算 机 的 测验 可 以 很 好 地 收集 被 试 在 各 题 上 
的 反应 时 。 目 前 为 止 , 研究 者 开发 了 一 系列 反应 
与 反应 时 联合 建 模 的 模型 ,包括 四 参数 logistic 反 
应 时 模型 (four-parameter logistic response time 
model, 4PL-RTM; Wang & Hanson, 2005) 和 层级 框 
架 模 型 (hierarchical framework model; van der 
Linden, 2007; Fox & Marianti, 2016) 等 ， 这 些 模型 
足以 支持 CPA 的 研究 。Wang 和 Xu (2015)24 44 

试 作答 反应 和 反应 时 数据 建立 了 混合 层级 模型 
(mixture hierarchical modeD)， 对 快速 猜测 行为 
(rapid guessing behaviour， 即 由 时 间 压 力 或 动机 
缺失 导致 的 随机 作答 行为 ) 实 施 侦 测 ， 取 得 了 比较 
好 的 检测 效果 。 此 外 , 存在 加 速 作 答 的 被 试 在 测 
验 后 期 各 题 上 作答 的 反应 时 会 更 短 (Shao et al., 
2016)。 因 此 , Shao (2016) 在 研究 中 使 用 基于 反应 
时 数据 的 CPA 对 加 速 作答 行 为 实施 侦 测 ， 结 果 发 
现 : 在 侦 测 结果 中 不 仅 一 型 错误 率 得 到 了 良好 控 
制 , 方法 的 效力 也 很 高 。 这 说 明了 仪 通过 反应 时 
数据 实施 侦查 也 可 以 取得 不 错 的 效果 。 通 过 结合 


据 了 主体 地 位 。 但 是 本 文中 列举 的 各 项 PFS 中 ， 
只 有 Yu 和 Cheng (2019) 提 出 的 基于 加 权 残 差 的 
Rnax 是 建立 在 多 级 计 分 测验 上 的 , 而 且 向 两 级 计 
分 的 指标 转化 也 很 方便 。 因 此 ,可 以 考虑 将 现 有 
的 PFS 拓展 至 多 级 计 分 ， 以 增加 这 些 指 标的 适用 
范围 ， 此 类 研究 难度 较 低 ， 可 行 性 较 高 (Sinharay， 
2016), 并 且 具 有 较 大 的 应 用 价值 。 除 了 将 指标 拓 
展 至 多 级 计 分 以 外 , 也 可 将 现 有 的 PFS 向 多 维 测 
验 进 行 拓 展 ， 多 维 量 表 的 开发 是 当前 趋势 所 在 ， 
例如 在 基于 英文 语言 的 数学 测验 中 ,每 道 题 上 同 
时 考察 英语 与 数学 两 个 维度 的 能 力 ， 如 果 某 考生 
存在 加 速 作答 ,那么 经 过 变 点 之 后 其 英语 和 数学 
能 力 都 将 降低 。 当 前 多 维 项 目 反 应 理论 
(multidimensional IRT, MIRT) 已 较为 成 熟 ， 可 以 支 
撑 多 维 异常 反应 侦查 研究 的 开展 。 因 此 ,这 也 是 
一 项 具有 可 行 性 和 价值 的 工作 。 
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Change point analysis: A new method to detect aberrant responses 
in psychological and educational testing 


ZHANG Longfei; WANG Xiaowen; CAI Yan; TU Dongbo 
(School of Psychology, Jiangxi Normal University, Nanchang 330022, China) 


Abstract: The change point analysis (CPA), as one of the most widely used methods for statistical process 
control, is introduced to psychological and educational measurement for detection of aberrant response 
patterns in recent years. CPA outperforms the traditional method as follows: In addition to detecting aberrant 
response patterns, it can also pinpoint the locations of change points, contributing to efficient cleansing of 
response data. The method is employed to determine whether there is a point so that the complete sequence 
can be divided into two parts with different statistical properties, where person-fit statistics (PFS) is needed 
for quantifying the difference between two sub-sequences. Future researchers should pay more attention to 
multiple change points detection, making full use of other effective information like response time data, 
developing non-parametric indices as well as reforming the exiting person-fit statistics for polytomous and 
multidimensional tests, so as to enhance its applicability and power. 


Key words: aberrant responses; change point analysis; cumulative summation; person-fit statistics 


